1
Definire Relazioni Attraverso Distribuzioni Condizionate
MATH003Lesson 10
00:00
Benvenuti in uno spostamento concettuale nella statistica. Stiamo andando oltre l'intuizione semplice delle "linee di tendenza" verso un approccio rigoroso Quadro Distributivo. Qui definiamo una relazione non solo tramite un coefficiente di correlazione, ma come qualsiasi cambiamento nel comportamento probabilistico di una variabile risposta $Y$ quando la variabile predittiva $X$ varia.

Definizione 10.1.1: Il Legame Statistico

Due variabili $X$ e $Y$ sono considerate correlate se c'è qualsiasi cambiamento nella distribuzione condizionata di $Y$, dato $X = x$, man mano che $x$ cambia. Inversamente, uno stato di "nessuna relazione" è matematicamente equivalente all'indipendenza tra $X$ e $Y$.

Equivalenza Logica

Le variabili $X$ e $Y$ sono indipendenti se e solo se $f(y|x) = f(y)$ per tutti i valori di $x$. Ciò implica che la funzione di frequenza relativa congiunta può essere fattorizzata come:

$$f(x, y) = f(x)f(y)$$

Pertanto, verificare una relazione è fondamentalmente un test di Indipendenza.

Meccanismi di Cambiamento

Una relazione viene identificata da qualsiasi spostamento nella funzione di densità condizionata (come mostrato nella Figura 10.1.1). Questo include:

  • Spostamento della Media: Il valore atteso $E(Y|X)$ cambia (l'aspetto più comune).
  • Spostamento della Varianza: La dispersione o l'incertezza di $Y$ dipende da $X$ (eteroschedasticità).
  • Cambiamento della Forma: La distribuzione complessiva si trasforma (ad esempio, da simmetrica a asimmetrica).

Stabilire la Causalità Attraverso il Disegno

Una relazione statistica non implica causalità. Per affermare che $X$ causa $Y$, dobbiamo tenere conto delle variabili confondenti attraverso il Disegno degli Esperimenti:

  • Trattamenti di Controllo: Fornisce un punto di riferimento per il confronto.
  • Effetto Placebo: Riduzione dell'effetto miglioramento percepito grazie a trattamenti inattivi.
  • Mascheramento: Utilizzando esperimenti ciechi (soggetti ignari) e esperimenti doppi ciechi (soggetti e ricercatori ignari) per eliminare gli errori sistematici.
  • Bloccaggio: Come mostrato in Esempio 10.1.7, utilizziamo variabili di blocco ($W$, come la fertilità del suolo) per garantire che la relazione tra tipo di grano ($X$) e resa ($Y$) non sia influenzata da condizioni pre-esistenti.
🎯 Stimatore Matematico Fondamentale
Stimiamo questi legami utilizzando Verosimiglianza Condizionata funzioni. Per dati discreti con conteggi $f_{ij}$:
$$L = \prod_{i=1}^a \prod_{j=1}^b (\theta_{j|X=i})^{f_{ij}}$$ Errore Standard: $SE = \sqrt{\frac{\hat{\theta}_{ij}(1 - \hat{\theta}_{ij})}{n}}$